Elaboración de gráficas para la visualización de los datos. El conjunto de datos utilizado es el dataset del Trabajo Fin de Máster. Son datos de una aseguradora de coches.
library(ggplot2)
library(plotly)
library(naniar)
library(extracat)
library(crosstalk)
library(htmltools)
data <- read.csv('tfm_fraude_I_tramas.csv', header = TRUE)
data <- subset( data, select = -ref )
attach(data)
n_miss(data)
## [1] 1797890
n_complete(data)
## [1] 10983532
prop_miss(data)
## [1] 0.1406643
prop_complete(data)
## [1] 0.8593357
pct_miss(data)
## [1] 14.06643
pct_complete(data)
## [1] 85.93357
miss_var_summary(data)
## # A tibble: 123 x 3
## variable n_miss pct_miss
## <chr> <int> <dbl>
## 1 X19 103857 99.9
## 2 X20 103796 99.9
## 3 X1 79851 76.8
## 4 X3 79851 76.8
## 5 X2 79851 76.8
## 6 X5 79851 76.8
## 7 X6 79851 76.8
## 8 X17 79851 76.8
## 9 X14 79848 76.8
## 10 X13 79848 76.8
## # ... with 113 more rows
miss_var_table(data)
## # A tibble: 14 x 3
## n_miss_in_var n_vars pct_vars
## <int> <int> <dbl>
## 1 0 59 48.0
## 2 4 36 29.3
## 3 6 2 1.63
## 4 221 1 0.813
## 5 5491 1 0.813
## 6 7158 1 0.813
## 7 31847 1 0.813
## 8 71243 2 1.63
## 9 71246 3 2.44
## 10 71250 1 0.813
## 11 79848 8 6.50
## 12 79851 6 4.88
## 13 103796 1 0.813
## 14 103857 1 0.813